通常,在加固学习(RL)中,奖励会随着时间的流逝而使用指数函数来模拟时间偏好,从而限制了预期的长期奖励。相反,在经济学和心理学中,已经表明人类通常采用双曲线折现方案,当假定特定的任务终止时间分布时,这是最佳的。在这项工作中,我们提出了一种基于连续的基于模型的强化学习的理论,将其推广到任意折扣功能。该公式涵盖了存在非指数随机终止时间的情况。我们得出了表征最佳策略的汉密尔顿 - 雅各比 - 贝尔曼(HJB)方程,并描述了如何使用搭配方法来求解它,该方法使用深度学习进行函数近似。此外,我们展示了如何解决逆RL问题,其中人们试图恢复给定决策数据的折现功能的属性。我们在两个模拟问题上验证了我们提出的方法的适用性。我们的方法为分析在顺序决策任务中分析人类折现的道路开辟了道路。
translated by 谷歌翻译